Towards Speaker Detection using FaceAPI Facial Movements in Human-Machine Multiparty Dialogue

نویسنده

  • Samer Al Moubayed
چکیده

In multiparty multimodal dialogue setup, where the robot is set to interact with multiple people, a main requirement for the robot is to recognize the user speaking to it. This would allow the robot to pay attention (visually) to the person the robot is listening to (for example looking by the gaze and head pose to the speaker), and to organize the dialogue structure with multiple people. Knowing the speaker from a set of persons in the field-of-view of the robot is a research problem that is usually addressed by analyzing the facial dynamics of persons (the person that is moving his lips and looking towards the robot is probably the person speaking to the robot).This thesis investigates the use of lip and head movements for the purpose of speaker and speech/silence detection in the context of human-machine multiparty dialogue. The use of speaker and voice activity detection systems in human-machine multiparty dialogue is to help the machine in detecting who and when someone is speaking out of a set of persons in the field-of-view of the camera. To begin with, a video of four speakers (S1, S2, S3 and S4) speaking in a task free dialogue with a fifth speaker (S5) through video conferencing is audio-visually recorded. After that each speaker present in the video is annotated with segments of speech, silence, smile and laughter. Then the real-time FaceAPI face tracking commercial software is applied to each of the four speakers in the video to track the facial markers such as head and lip movements. At the end, three classification techniques namely Mahalanobis distance, naïve Bayes classifier and neural network classifier are applied to facial data (lip and head movements) to detect speech/silence and speaker. In this thesis, three types of training methods are used to estimate the training models of speech/silence for every speaker. The first one is speaker dependent method, in which the training model contains the facial data of testing person. The second one is speaker independent method, where the training model does not contain the facial data of testing person. It means that if the test person is S1 then the training model may contain the facial data of S2, S3 or S4. The third one is hybrid method, where the training model is estimated using the facial data of all the speakers and testing is performed on one of the speaker. The results of speaker dependent and hybrid methods show that the neural network classifier provides the best results. In the speaker dependent method, the accuracies of neural network classifier for speaker and speech/silence detection are 97.43% and 98.73% respectively. However, in the hybrid method, the accuracy of neural network classifier for speech/silence detection is 96.22%. The results of speaker independent method shows that the naïve Bayes classifier provides the best results with an optimal accuracy of 67.57% for speech/silence detection. Sammanfattning Gentemot Talaren Detektering med FaceAPI Facial rörelser i Människa-Maskin Multiparty Dialog I fleraparter med fleramodala dialoginställningar, där roboten är inställd på att interagera med flera personer. Det är en viktig förutsättning för roboten att känna igen att användaren talar till den. Detta skulle göra det möjligt för roboten att uppmärksamma (visuellt) den person roboten lyssnar till (till exempel genom att titta i blicken och på huvudet för att känna igen talaren) och att organisera dialogens struktur med flera personer. Talaren från en upp sättning av personer i roboten synfält är ett forskningsproblem som vanligtvis riktar sig till att analysera dynamiken i ansiktsuttryck för personer (den person som rör på sina läppar och riktar blicken mot roboten är förmodligen den person som talar till roboten). Denna avhandling undersöker användningen av läpp och huvudrörelser i syfte av att upptäcka högtalare och tal/tystnad i samband med människa-maskin flerpartisystem dialog. Användningen av högtalare och röstaktivitetsdetekteringssystem i människa-maskin flerpartisystem dialog är att hjälpa maskinen att upptäcka vem och när någon talar i kamerans synfält. Till att börja med, en video av fyra högtalare (S1, S2, S3 och S4) talar i en uppgift utan dialog med en femte högtalare (S5) genom videokonferenser blir ljud-visuellt inspelat. Sedan tillämpas realtid FaceAPI tracking kommersiell programvara på vardera fyra högtalarna i videon, för att spåra ansiktets markörer som huvud-och läpprörelser. I slutet finns tre klassificeringstekniker nämligen Mahalanobis distans, naiva Bayes klassificeraren och neuralanätverk klassificerare, som tillämpas på ansiktet (läpp och huvudrörelser) för att upptäcka tal/tystnad och talare. I denna avhandling har tre typer av träningsmetoder använts för att uppskatta utbildningsmodellerna för tal/tystnad för varje talare. Den första är en talarberoende metod, där utbildningsmodellen innehåller uppgifter om ansiktsdrag från testpersonen. Den andra är en talaroberoende metod, där träningsmodellen inte innehåller ansiktsdrag från testpersonen. Det innebär att om testpersonen är S1 kan utbildningsmodellen innehålla data om ansiktsdrag från S2, S3 eller S4. Den tredje är en hybrid metod, där utbildningsmodellen beräknas utifrån data från alla talares ansiktsdrag men tester utförs på en av talarna. Resultaten av talarberoende och hybridmetoderna visar att den neurala nätverksklassificeraren ger bästa resultat. Utifrån data från alla talares ansiktsdrag är, noggrannheten på neurala nätverk klassificerare för talare och tal/tystnad upptäckt är 97,43% och 98,73% respektive. I hybridmetoden, är däremot noggrannheten hos neurala nätverksklassificeraren för tal/tystnad detektering 96,22%. Resultaten av talaroberoende metod visar att den naïve Bayes klassificerare ger de bästa resultaten med en optimal noggrannhet på 67,57% för tal/tystnad detektering.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Towards Speaker Detection using Lips Movements for Human-Machine Multiparty Dialogue

This paper explores the use of lips movements for the purpose of speaker and voice activity detection, a task that is essential in multi-modal multiparty human machine dialogue. The task aims at detecting who and when someone is speaking out of a set of persons. A multiparty dialogue consisting of 4 speakers is audiovisually recorded and then annotated for speaker and speech/silence segments. L...

متن کامل

The furhat social companion talking head

In this demonstrator we present the Furhat robot head. Furhat is a highly human-like robot head in terms of dynamics, thanks to its use of back-projected facial animation. Furhat also takes advantage of a complex and advanced dialogue toolkits designed to facilitate rich and fluent multimodal multiparty human-machine situated and spoken dialogue. The demonstrator will present a social dialogue ...

متن کامل

Who’s next? Speaker-selection mechanisms in multiparty dialogue

Participants in conversations have a wide range of verbal and nonverbal expressions at their disposal to signal their intention to occupy the speaker role. This paper addresses two main questions: (1) How do dialogue participants signal their intention to have the next turn, and (2) What aspects of a participant’s behaviour are perceived as signals to determine who should be the next speaker? O...

متن کامل

Facial Expression Recognition Based on Anatomical Structure of Human Face

Automatic analysis of human facial expressions is one of the challenging problems in machine vision systems. It has many applications in human-computer interactions such as, social signal processing, social robots, deceit detection, interactive video and behavior monitoring. In this paper, we develop a new method for automatic facial expression recognition based on facial muscle anatomy and hum...

متن کامل

Problem detection in human-machine interactions based on facial expressions of users

This paper describes research into audiovisual cues to communication problems in interactions between users and a spoken dialogue system. The study consists of two parts. First, we describe a series of three perception experiments in which subjects are offered film fragments (without any dialogue context) of speakers interacting with a spoken dialogue system. In half of these fragments, the spe...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013